Dinámica espectral y geometría del ruido de Muon
Exploramos la dinámica espectral y geometría del ruido del optimizador Muon: su sesgo hacia espectro plano y cuándo es útil frente a AdamW. Resultados experimentales.
Exploramos la dinámica espectral y geometría del ruido del optimizador Muon: su sesgo hacia espectro plano y cuándo es útil frente a AdamW. Resultados experimentales.
Muon reemplaza el gradiente por su factor polar, aplanando el espectro. Descubre cómo este sesgo mejora la optimización en ciertos regímenes, y cuándo AdamW es mejor.